National Repository of Grey Literature 20 records found  1 - 10next  jump to record: Search took 0.01 seconds. 
Speaker Diarization
Tomášek, Pavel ; Karafiát, Martin (referee) ; Matějka, Pavel (advisor)
This work aims at a task of speaker diarization. The goal is to implement a system which is able to decide "who spoke when". Particular components of implementation are described. The main parts are feature extraction, voice activity detection, speaker segmentation and clustering and finally also postprocessing. This work also contains results of implemented system on test data including a description of evaluation. The test data comes from the NIST RT Evaluation 2005 - 2007 and the lowest error rate for this dataset is 18.52% DER. Results are compared with diarization system implemented by Marijn Huijbregts from The Netherlands, who worked on the same data in 2009 and reached 12.91% DER.
Voice Activity Detection
Břenek, Roman ; Grézl, František (referee) ; Matějka, Pavel (advisor)
This thesis describes techniques for voice activity detection in audio recordings. It is necessary to  correctly classify all non-speech segments and recognize speech with noisy background.  The whole process of voice activity detection (VAD) is described in this thesis, i.e. digitizing audio  signal, feature extraction, training of the system, post-processing and final evaluation. There are  three different systems compared within the thesis . The first one is based on phoneme recognition using neural network, the other two are variations of Gaussian Mixture Models (GMM). Each system was tested on three data sets - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) and Rich Transcription Evaluation (RT05-RT07). The best results of each system are compared with the results of the third side.
Personal Voice Activity Detection
Sedláček, Šimon ; Landini, Federico Nicolás (referee) ; Švec, Ján (advisor)
Cílem této práce je implementovat, otestovat a vyhodnotit řečníkem podmíněnou metodu pro detekci hlasu ( Voice Activity Detection , VAD) nazvanou Personal VAD. Pro detekci využívá tato metoda LSTM neuronových sítí a jejím účelem je vytvoření systému schopného spolehlivě detekovat řečové signály cílového řečníka při zachování vlastností typického VAD systému co se velikosti modelu, odezvy a nízkých nároků na zdroje týče. Systém je trénován pro klasifikaci řečových rámců do tří tříd: neřeč, řeč necílového a řeč cílového řečníka. Za tímto účelem využívá metoda speaker embedding vektory pro reprezentaci cílového řečníka jako součást vstupních příznaků. Některé z náročnějších variant systému využívají skórování rámců systémem pro verifikaci řečníka, což vede ke zvýšení spolehlivosti klasifikace. Vedle základní metody skórování představené v originálním článku byly navrženy dvě modifikace, jež základní metodu překonaly a zlepšily spolehlivost výsledného systému i v akusticky náročných prostředích.
Speech Enhancement Methods
Kukučka, Peter ; Mekyska, Jiří (referee) ; Hudec, Antonín (advisor)
Aim of this work is summarize some single-channel methods of speech enhancement. These methods are explained in this work: Basic Spectral Subtraction Method, Modified Spectral Subtraction, Multi-band Spectral subtraction, spectral subtraction MMSE and Wiener filtering. All methods are implemented. Preprocessing, voice activity detector and speech scores are explained in this paper, too.
Analysis of Telephone Call of Two People
Herceková, Monika ; Schwarz, Petr (referee) ; Matějka, Pavel (advisor)
This thesis deals with analysis of two people's phone call. It describes possible ways of speech and silence appearence in record and reasons criteria for listening the record. There is implemented prototype of application suggested in the thesis for analysis of telephone call. There are introduced possible extensions of the work at the end of the thesis.
Automatic speech recordings segmentation tool
Santa, Roman ; Zvončák, Vojtěch (referee) ; Kováč, Daniel (advisor)
Nástroj pre automatickú segmentáciu spracováva nahrávky reči a extrahuje hovorené slovo z nahrávok. Je dôležité, aby pokročilá analýza pracovala iba s rečovými časťami z nahrávky. Nástroj na segmentáciu má ulahčiť spracovanie nahrávok pre analýzu rozdielov medzi hláskami pacientov s parkinsonovou chorobou a tými zdravými. Cieľ tejto práce je navrhnúť a otestovať detektory reči s Google WebRTC detektorom a vybrať ten najvhodnejší detektor reči s minimálnym počtom chýb. Ďalej, vytvoriť nástroj na segmentáciu nahrávok a otestovať rozpoznávanie reči pomocou dynamic time warping. Bola použitá databáza poskytnutá laboratóriom pre analýzu mozgových ochorení. Obsahuje české a maďarské nahrávky s rovnakým počtom mužských a ženských pacientov a aj rovnakým počtom zdravých pacientov a pacientov s parkinsonovou chorobou. Najlepšie výsledky v testoch dosiahol detektor na základe energie reči. Nebol zistený žiaden rozdiel v presnosti detektoru pri spracovaní mužských a ženských nahrávok alebo nahrávok zdravých či chorých pacientov. Nahrávky s nízkym odstupom signálu od šumu boli náročnejšie na spracovanie s frekvenciou chýb od 12%. Na základe výsledkov, bol navrhnutý nový detektor pre spracovanie úplnej nahrávky. Na záver bol testovaný algoritmus pre rozpoznávanie podobnosti reči na základe melovských kepstrálnych koeficientov.
Automatic Speech Detection for VHF Channel
Nováková, Mária ; Veselý, Karel (referee) ; Szőke, Igor (advisor)
Výskyt hluku a šumu v pozadí audio leteckej komunikácie je problémom, ktorému denne čelia operanti riadenia letovej prevádzky. Aby bola zaistená bezpečná letecká preprava, komunikácia medzi vežou a lietatlom musí byť čo najefektívnejšia. Hlavnú rolu vo vylepšovaní kvality komunikácie hrá detekcia hlasovej aktivity. Správna detekcia reči je nevyhnutá pre rozpoznanie začiatku komunikácie pre systémy. Začiatok komunikácie začína stlačením tlačítka push-to-talk pomocou rádiového systému. Na rozpoznávanie reči existujú rôzne prístupy a implementácie. Za pomoci neurónových sietí sa dá detekcia reči upresniť. Výhodou používania umelej inteligencie je jej adaptácia na nové podnety. Táto práca ponúka riešenie na detekciu reči a push-to-talk udalostí v leteckej komunikácií. Navrhnuté riešenia budú evaluované a porovnané. Na záver, dostupná implementácia GPVAD je prepracovaná na riešenie tohto problému. Strojové učenie má zas a znova príležitosť predviesť svoje schopnosti.
Analysis of prosodic and spectral properties of voice communication in air traffic control
Simonides, Jakub ; Kopřiva, Tomáš (referee) ; Smékal, Zdeněk (advisor)
This thesis analyses the prosodic and spectral features of bi-directional air traffic control communication, describes how to communication was split to segments, according to the source, via transcription. After the splitting, the segments are deeply analyzed for their spectral and prosodic features. The analysis itself, focuses on the spectral aspects of intensity, fundamental frequency F0, slope and centroid. Additionally, tempo and voice activity detection data were measured, to support the spectral aspects as well. Because of the differences between the ATC controller’s and pilots’ spectral aspects, the direction of the communication can be automatically determined, with relatively high success percentage.
Music, Speech, Crying, Singing Detection in Audio (Video)
Danko, Michal ; Malenovský, Vladimír (referee) ; Szőke, Igor (advisor)
This thesis follows the trend of last decades in using neural networks in order to detect speech in noisy data. The text begins with basic knowledge about discussed topics, such as audio features, machine learning and neural networks. The network parameters are examined in order to provide the most suitable background for the experiments. The main focus of the experiments is to observe the influence of various sound events on the speech detection on a small, diverse database. Where the sound events correlated to the speech proved to be the most beneficial. In addition, the accuracy of the acoustic events, previously used only as a supplement to the speech, is also a part of experimentation. The experiment of examining the extending of the datasets by more fairly distributed data shows that it doesn't guarantee an improvement. And finally, the last experiment demonstrates that the network indeed succeeded in learning how to predict voice activity in both clean and noisy data.
Voice Activity Detection
Ent, Petr ; Karafiát, Martin (referee) ; Matějka, Pavel (advisor)
Práce pojednává o využití support vector machines v detekci řečové aktivity. V první části jsou zkoumány různé druhy příznaků, jejich extrakce a zpracování a je nalezena jejich optimální kombinace, která podává nejlepší výsledky. Druhá část představuje samotný systém pro detekci řečové aktivity a ladění jeho parametrů. Nakonec jsou výsledky porovnány s dvěma dalšími systémy, založenými na odlišných principech. Pro testování a ladění byla použita ERT broadcast news databáze. Porovnání mezi systémy bylo pak provedeno na databázi z NIST06 Rich Test Evaluations.

National Repository of Grey Literature : 20 records found   1 - 10next  jump to record:
Interested in being notified about new results for this query?
Subscribe to the RSS feed.